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基于 MFCC 和 GMM 的 昆虫 声音 自动 识别 
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摘要 : 昆虫 的 运动 、 取 食 、 鸣 叫 都 会 发 出 声音 , 这 些 声 音 存在 种 内 相似 性 和 种 间 差 异性 ， 因此 可 用 来 识别 昆虫 的 
种 类 。 基 于 昆虫 声音 的 昆虫 种 类 上 自动 检测 技术 对 协助 农业 和 林业 从 业 人 员 方 便 地 识别 昆虫 种 类 非常 有 意义 。 本 
研究 采用 了 语音 识别 领域 里 的 声音 参数 化 技术 来 实现 昆虫 的 声音 自动 鉴别 。 声 音 样 本 经 预 处 理 后 , 提取 梅 尔 倒 谱 
系数 ( Mel-frequency cepstrum coefficient, MFCC) 作为 特征 , 并 用 这 些 样本 提取 的 MECC 特征 集训 练 混合 高 斯 模型 
( Gaussian mixture model, GMM) 。 最 后 用 训练 所 得 到 的 GMM 对 未 知 类 别 的 昆虫 声音 样本 进行 分 类 。 该 方法 在 包 
含 58 种 昆虫 声音 的 样本 库 中 进行 了 评估 , 取得 了 较 高 的 识别 正确 率 ( 平 均 精度 为 98.95% ) 和 较 理 想 的 时 间 性 能 。 
该 测试 结果 证 明了 基于 MFCC 和 GMM 的 语音 参数 化 技术 可 以 用 来 有 效 地 识别 昆虫 种 类 。 
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Abstract: Insects produce various sounds when they are moving, feeding or calling. These sounds exhibit 
intraspecies similarity and interspecies differences, thus they can be used to discriminate species 
identities of insects. Automatic detection of insect species through sounds produced by the insects would 
be very meaningful in giving farm workers or forestry workers a convenient way to recognize insects. In 
this study we employed the sound parameterization techniques that are frequently used in the field of 
human speech recognition. Mel-frequency cepstrum coefficients ( MFCCs) were extracted from the sound 
samples after preprocessing, and Gaussian mixture model ( GMM) was trained with these MFCC features. 
Finally, the unknown insect sound samples were classified by the GMM. The proposed method was 
evaluated in a database with acoustic samples of 58 different insect sounds. The method performed well in 
terms of both recognition rate and time performance. The average recognition accuracy was as high as 
98.9596. The test results proved that sound parameterization techniques based on MFCC and GMM could 
be used to recognize insect species efficiently. 

Key words: Insects; species identification; sound processing; automatic recognition; Mel-frequency 
cepstrum coefficient ( MFCC) ; Gaussian mixture model ( GMM) 
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对 有 害 昆 虫 的 鉴定 和 检测 的 传统 方法 通常 是 用 
VHBRACFOLSCOMB, 然而 , 近年 来 在 信号 处 理 和 计算 
机 技术 上 的 发 展 使 得 通过 图 像 分 析 和 声学 检测 等 方 
法 进行 物种 的 目 动 鉴定 成 为 可 能 。 由 于 人 工 统计 物 
种 数量 在 实施 过 程 中 存在 困难 , 用 生物 声学 方法 实 
现 物种 的 目 动 鉴定 的 研究 越 来 越 广 沁 。 人 研 究 人 员 已 


把 语音 识别 技术 应 用 到 马 类 的 分 类 研究 中 , 如 人 台北 
科技 大 学 的 薛 宇 志 (2010 ) 使 用 二 阶段 法 识别 以 构 ， 
先 判断 马 鸣 声 的 鸣叫 声 模式 ， 再 根据 该 模式 判断 乌 
的 种 类 。 中 国 科 学 院 动物 研究 所 的 科研 人 员 利 用 语 
音 识别 方法 , 在 4 种 稚 形 目 马 类 中 进行 了 种 内 个 体 
识别 的 研究 ( Cheng et al. , 2010) 。 这 些 研究 表明 ， 
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声音 在 物种 分 类 研究 中 存在 广阔 的 应 用 前 景 。 尽 管 
在 人 类 语言 识别 领域 投入 的 研究 已 较 多 , 但 目 动 声 
学 物种 鉴别 仍 锌 认为 是 模式 识别 的 边缘 领域 ,这 方 
面 人 研究 的 文献 也 相对 较 少 。 概 言 之 , 昆虫 的 声学 鉴 
定 是 基于 昆虫 具有 产生 声音 的 能 力 , 这 种 声音 要 人 和 
是 出 于 沟通 需要 有 意 发 出 的 , 要 么 是 作为 取 食 、 飞 
行 或 运动 的 副产品 而 发 出 。 如 果 这 种 昆虫 发 出 生物 
声学 信号 遵循 种 类 一 致 的 声学 模式 , 那么 它 就 可 以 
被 用 于 种 类 的 检测 和 鉴定 。Riede〈1998 ) 提出 昆虫 
所 发 出 的 声音 提供 了 可 靠 的 分 类 学 线索 , 因此 可 被 
用 于 生物 多 样 性 度量 。 

昆虫 的 声学 鉴定 问题 主要 分 为 两 个 阶段 : 特征 
提取 和 分 类 识别 。 所 提取 的 特征 在 其 空间 中 应 有 能 
力 区 分 不 同 种 类 的 昆虫 ,而 分 类 顺 则 能 在 给 定 特征 
空间 实现 这 种 区 分 。 韩 萍 (2003 ) 使 用 频谱 分 析 法 
和 BP 神经 网 络 识别 储 粮 害虫 , 并 在 包含 3 类 害虫 
| XZ Sitophilus oryzae (Linne )、 玉 米 象 Sitophilus 
zeamais ( Motschulsky ) ^H 7 W 4 X& Tribolium 
castaneum ( Herbst) ] 的 库 中 进行 了 测试 , 并 取得 了 
8196 的 识别 正确 率 。Chesmore (2001) 用 时 域 信号 
处 理 和 人 工 神 经 网 络 对 目 动 识别 直 却 目 昆虫 昨 晤 
( grasshoppers ) THERE ( crickets) 的 技术 进行 了 研究 ， 
选择 了 25 类 喘 国 直 翅 目 昆 虫 作为 测试 集 ,， 初步 的 
结果 表明 可 以 获得 较 高 的 识别 率 。Pinhas 等 
(2008) 则 开发 了 一 种 使 用 矢量 量化 ( vector 
quantization, VQ) 和 混合 高 斯 模型 ( Gaussian mixture 
model, GMM) 的 数学 方法 实现 对 红 标 象 虫 (red palm 
weevil) 声学 行为 的 自动 检测 。Ganchev 等 (2007 ) 使 
用 主 谐 波 、 脉 冲 周期 和 宽度 以 及 23 个 线性 倒 谱 系 
zi (linear frequency cepstrum coefficients, LFCCs) ， 
经 归 一 化 后 作为 特征 回 量 ， 并 用 概率 神经 网 络 
( probabilistic neural network, PNN) 、GCMM 、 隐 马尔 
可 夫 模 型 (hidden Markov model, HMM) 等 作为 分 类 
dg VUA IBIBUEL mE EP, 提出 的 方法 在 北美 鸣 忠 数 
据 集中 进行 了 评估 并 取得 了 较 高 的 识别 精度 。 

本 人 研究 使 用 梅 尔 倒 谱 系数 ( Mel-frequency 
cepstrum coefficient, MFCC) 作为 从 昆虫 声音 样本 中 
提取 的 特征 , 并 用 混合 高 斯 模型 来 分 类 不 同 的 声 
音 。 本 研究 方法 在 储 粮 害虫 的 运动 和 取 食 声 、 土 壤 
昆虫 的 运动 和 取 食 声 (Arbogast et al., 2000; 
Brandhorst-Hubbard et al., 2001 ; Zhang et al., 2003; 
Mankin et al., 2008a) 、 土 壤 昆虫 的 防御 性 摩擦 声 
(Vulinec，2000 )、 树 林 昆 虫 的 运动 和 取 食 声 
(Thoms, 2000; Mankin et al.,2008b) 、 植 物 昆 虫 的 


运动 和 取 食 声 、 翅 和 腹部 的 振动 声 ( Hay-Roe and 
Mankin, 2004) 等 样本 库 中 进行 了 评估 ,对 识别 特 
定 的 昆虫 种 类 取得 了 98% 以 上 的 识别 精度 。 


1 声音 样本 来 源 和 预 处 理 


1.1 声音 录制 及 数据 获取 

本 研究 所 使 用 的 实验 材料 为 昆虫 声音 庄 
( Mankin, 2009) , 该 库 由 美国 农业 部 农业 研究 服务 
中 心 Richard Mankin 的 研究 小 组 创建 。 该 库 中 所 录 
制 的 昆虫 声音 持续 时 间 介 于 3 ~60 s 之 间 。 为 了 使 
GMM 分 类 船 有 充分 的 数据 用 于 训练 ,昆虫 声音 片 
段 较 长 的 样本 用 于 训练 ,而 短 样 本 睛 段 用 于 测试 以 
提高 识别 的 速度 。 对 于 识别 过 程 而 言 ， 一 个 包含 活 
跃 信号 的 1.2 s 长 的 声音 片段 已 足以 提取 用 于 识别 
的 有 用 参数 。 库 中 数据 被 分 为 两 个 数据 集 : 一 个 训 
练 集 和 一 个 测试 集 , 训练 集中 的 样本 长 度 要 远 长 于 
测试 集 。 
1.2 预 处 理 

假设 所 有 的 输入 昆虫 声音 是 经 过 采样 和 量化 的 
数字 信和 号, 那么 预 处 理 主要 包括 信号 归 一 化 、 预 加 
重 和 分 段 。 
1.2.1 归 一 化 : 声音 信号 的 归 一 化 只 是 把 每 一 个 
采样 值 除 以 本 有 段 信号 的 幅度 峰值 ， 即 : 

X(i) = x(i)/ max x(i) (1) 

其 中 x(i) 是 原始 信号 , 人 (i 记 是 归 一 化 后 的 信 
F, n 是 信号 长 度 。 
1.2.2 HME: 由 于 声音 信号 随 频率 的 增长 呈 指 
数 级 的 衰减 , 大 多 能 量 集中 在 低频 带 ， 而 高 频 成 分 
的 信 品 比 则 衰减 到 一 种 无 法 接受 的 水 平 。 预 加 重 是 
一 种 提升 高 频 成 分 的 方法 ,而 低频 成 分 则 保持 原来 
的 水 平 , 使 信号 的 频谱 变 得 平坦 ,以 便于 进行 频谱 
分 析 或 声 道 参数 分 析 。 预 加 重 因 子 a 计算 如 下 : 

a = exp( - 2nF AI) (2) 

其 中 Ai 为 声音 信号 的 采样 周期 , 则 预 加 重 滤 

H(z) =1-az (3) 
1.2.3 分 段 : 只 对 测试 集 的 数据 集 进 行 了 分 段 操 
作 。 较 长 的 声音 样本 被 均匀 地 分 割 为 长 度 约 1.2 s 
的 短 样本 。 


2 MFCC 特征 提取 


梅 尔 倒 频 谱 ( Mel-frequency cepstrum, MFC ) 是 
对 声音 的 短 时 能 量 谱 的 一 种 表示 , 它 是 对 非 线 性 梅 
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尔 频 标 中 的 对 数 功 率 谱 进 行 线 性 余弦 变换 所 得 。 梅 
尔 倒 谱 系数 ( MFCCs) 是 共同 构成 MFC 的 全 体系 数 
( Mermelstein, 1976; Davis and Mermelstein, 1980) , 
它们 起 源 于 一 种 音频 片段 的 倒 谱 表示 。 倒 谱 和 梅 尔 
倒 谱 之 间 的 区 别 在 于 , 在 梅 尔 频 标 上 均匀 分 布 的 频 
带 ， 比 常规 倒 谱 中 线性 分 布 的 频 沉 ,更 接近 于 人 类 
听觉 系统 的 响应 。MFCCs 已 被 广泛 应 用 在 语音 处 
理 的 说 话 人 识别 领域 (Wu and Cao, 2005; 张 万 里 和 
刘 桥 , 2005) , 笠 乐 庆 等 (2010) 对 MFCCs 的 特性 和 计 
算 过 程 作 了 较 详 细 的 介绍 , 因此 本 文 只 作 简 略 描述 ， 
有 兴趣 的 读者 可 参阅 相关 文献 。 

计算 MFCCs 的 过 程 如 下 : 

1 ) 预 加 重 , IL 1.2.2。 

2) 加 Hamming 窗 。 声 音信 号 具有 准 平 稳 特 性 ， 
即 信号 只 在 短 时 段 上 才 可 视 为 是 一 个 平稳 过 程 。 可 
以 用 平稳 过 程 的 分 析 方 法 进行 分 析 , 因此 需 将 声音 
信号 划分 为 一 个 个 的 短 时 段 , 每 一 短 时 段 称 为 一 
帧 ,为 从 声音 信号 中 切取 含有 N 个 样本 的 声音 信和 号 
波形 , 需要 用 时 间 窗 函数 乘 以 原来 的 语音 信号 。 而 
矩形 窗 的 采用 使 得 每 一 帧 信号 在 起 始点 和 终点 处 发 
ERT, 导致 Gibbs 现象 的 出 现 。 为 了 减 小 起 始点 
和 终点 处 的 不 连续 性 , 用 Hamming 窗 ( 即 升 余弦 
f) 与 每 一 帧 相 乘 。 

3) 取 帧 长 NV = 256 点 ， 对 每 一 帧 作 FFT ( Fast 
Fourier transform) 变换 ,对 频谱 取 模 平方 得 到 离散 
功率 谱 。 

4) 把 上 述 功率 谱 映 射 到 梅 尔 频 标 , 再 用 MM 个 
TER ARIS Dx ous Ue dx. 得 到 一 组 系数 ml ,m2 ,…. 
梅 尔 滤 波 冀 在 频 域 上 为 在 梅 尔 频率 轴 上 是 均匀 分 布 
的 重 蕉 的 三 角 答 。 

5 ) 将 每 个 滤波 副 的 输出 取 对 数 , 得 到 相应 频 市 
的 对 数 功 率 谱 。 

6) 对 梅 尔 对 数 功率 谱 作 离散 余弦 变换 ,， 则 得 到 
的 谱 的 幅 值 即 为 MFCCs。 

标准 的 MFCC 只 反映 了 语音 参数 的 静态 特性 ， 
一 阶 差分 MFCC( 人 MFCC) 是 一 种 动态 参数 , 反映 
了 语音 参数 的 动态 特性 ， 有 和 较 好 的 鲁 棒 性 。 在 一 阶 
差分 MFCC 的 基础 上 , 还 可 以 进一步 计算 出 二 阶 差 
分 MFCC。 


3 ”基于 GMM 的 昆虫 声音 识别 


3.1 混合 高 斯 模型 GMM 
混合 高 斯 模型 是 单 状 态 随 机 生成 模型 。 与 某 一 


种 类 相关 的 概率 密度 函数 是 通过 几 个 高 斯 函数 的 加 
权 和 来 建 模 的 。 一 个 高 斯 混合 密度 是 M 个 成 分 密 
度 的 加 权 和 (图 1), 通过 下 式 计算 (Douglas et al, 
1995). 


M 


p(x | à) = Y pb) (4) 


i-l 
其 中 x 是 一 个 DD 维 的 随机 向 量 , bx), i — 1, 
c. M, 是 各 成 分 的 密度 , p i =1,…, M, ERR 
权 值 。 每 个 成 分 密度 是 一 个 D 度 可 变 的 高 斯 函数 ， 
如 下 式 : 





EN 1 ] 一 EN 

b.( x = —— ra ex 一 —(x 一 . 
(x) 2m”) |^ 2l 人 (万 ) | 
(5) 
其 均值 向 量 为 K;， 协 方差 矩阵 为 | Ys |. E 

合 权 值 满足 关系 2 p: =1, 
Hi» 25 
P(X|4) 


a2 





图 1 M 个 成 分 的 混合 高 斯 密度 为 各 成 分 高 斯 密度 的 加 权 和 
Fig. 1 The Gaussian mixture density of M components is 


the result of weighted sum of M Gaussian densities 


完整 的 高 斯 混合 密度 由 所 有 成 分 的 均值 癌 量 、 
协 方差 矩阵 和 混合 权 值 参数 化 得 到 。 这 些 参数 可 以 
和 以 下 符号 整合 表示 : 

À = ipo >》 .1 i=1,2,.…,M (6) 

每 一 类 昆虫 可 以 由 一 个 GMM 表示 , 并 可 用 它 
的 模型 A 来 指 代 。 
3.2 期 望 最 大 化 (expectation-maximuzation，EM ) 
算法 

均值 问 量 、 协 方差 矩阵 和 混合 权 值 等 CMM 参 
数 可 以 使 用 最 大 似 然 准则 通过 EM 算法 迭代 估计 得 
到 。EM 算法 是 估计 参数 入 的 经 典 算法 , 它 也 是 最 
大 似 然 估计 (maximum likelihood estimation, ML) 和 
最 大 后 验 估 计 (maximum a posteriori, MAP) 中 最 常 
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用 的 方法 。 该 方法 最 早 由 Baum 和 Petrie (1966) 及 
Baum 和 Eagon (1972) 提出 , 在 隐 马 尔 可 夫 模型 
(HMM) (Bilmes, 1998) 参数 集 的 似 然 估计 中 最 为 
常用 。 

EM 算法 的 基本 思想 是 : 从 某 个 初始 模式 出 
R, 去 估计 另 一 个 新 的 模式 入, 使 得 p(X1 A) > 
p(X1 A) ; 然后 新 的 模式 在 下 一 轮 选 代 中 作为 初始 
模式 进行 估计 , 这 个 过 程 反复 进行 直到 达到 收敛 的 
ii. 

在 每 一 次 EM 选 代 中 , 用 以 下 重 估计 公式 来 保 
证 模式 似 然 值 的 单调 递增 


混合 权 值 : 

P = p È pCIEA) (7) 

均值 : 

, - p|x,.A)x, 

pm ^ (8) 
$ p|, A) 

协 方差 : 

E ' pG|x,,A)s 

"A MORI a (9) 


Y, plz, A) 
则 声 首 类别 i 的 后 验 概率 计算 如 下 : 
p(i|x,,A) = pbl) (10) 
3 L-1 pub, x,) 
3.3 昆虫 声音 识别 
对 于 昆虫 声音 识别 , 包含 N 类 昆虫 的 组 S$ = 
11, 2，…, 和 可 以 用 N 个 GMM: A1, Aon A X 
表示 。 有 目标 是 对 给 定 的 观察 对 象 找 到 具有 最 大 后 验 
概率 的 种 类 模型 。 可 以 用 下 列 公 式 表示 : 
$ = arg max Pr( A, |X) = arg max »(X) 
(11) 


p(X | A) Prà) 


其 中 第 2 个 等 式 由 贝 叶 斯 规则 得 到 。 假 定 所 有 
种 类 相似 度 一 致 ( 即 Pr(A,) 21/N) ,对 所 有 的 昆虫 
声音 模型 而 言 , p(X) 都 相同 , 则 分 类 规则 简化 为 : 

S = arg max p(X|A,) (12) 

使 用 观察 之 间 的 独立 性 和 计算 对 数 , 则 昆虫 声 
音 的 识别 系统 只 计算 : 

$ = arg max 5, log(x, | Àz) (13) 


其 中 p(x,1 A,) 由 式 (10) 给 出 。 


4 ”识别 试验 结果 


该 方法 在 配置 为 Intel Core2 2. 16GHz, 1G RAM 
的 PC 机 上 用 Matlab 实现 。 试 验 中 昆虫 声音 有 58 
种 , 每 一 种 声音 因 录 音 时 长 不 同 , 经 预 处 理 得 到 的 
样本 数 各 不 相同 , 其 中 一 个 较 长 的 样本 用 于 训练 并 
建立 GMM 模型 , 剩 下 的 短 时 样本 用 于 测试 , 每 一 
种 昆虫 声音 用 于 测试 的 样本 数 介 于 1 ~14 个 之 间 ， 
每 一 大 类 的 总 测试 样本 数 见 表 2。 

X 1 给 出 了 特征 提取 、 训 练 和 识别 过 程 的 时 间 
性 能 , 在 提取 MFCCs 特征 时 采用 了 24 2HUR DX dB. 
从 表 中 可 以 看 出 , 特征 提取 和 训练 过 程 的 时 间 性 能 
跟 每 个 样本 的 持续 时 间 相 关 , 特征 提取 和 训练 的 时 
间 与 样本 时 长 正 相 关 , 但 并 非 线 性 相关 ， 因 为 它们 
还 受 声音 信号 的 功率 影响 ; 模型 训练 的 时 间 还 跟 
GMM 的 成 分 数 有 关 , E GMM 的 成 分 数 成 正比 ; 
识别 时 间 不 包括 特征 提取 的 步骤 , 所 以 其 受 样本 时 
和 影响 相对 较 小 。 事 实 上 , 在 测试 阶段 , 使 用 的 测 
试 样本 长 度 基本 一 致 , 所 以 表 1 中 只 给 出 一 个 鉴别 
时 间 值 。 


表 1 基于 MFCC 和 GMM 的 昆虫 声音 自动 识别 算法 的 时 间 性 能 


Table1 Time performance of automatic acoustic insect identification algorithm based on MFCC and GMM 


不 同 成 分 数 GMM 训练 时 间 (s) 


EM ` d S : v d 4 H : v I | : 
声音 样本 持续 时 间 CS) ”特征 提取 时 间 (s) Training time of GMMs with different number of components SEIT IRI Cs) 
Duration of sound sample Feature extraction time Identification time 
1 3 4 5 

5 0.480 0. 034 0. 133 0.211 0. 234 1.605 0.328 

15 0.735 0. 109 0. 404 1.727 2. 194 1.900 

30 1.222 0. 193 9.283 13. 646 18. 544 23.287 

45 7.876 0.238 9. 729 21.186 28.498 37.000 
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图 2 给 出 了 1.2s 长 的 昆虫 声音 测试 样本 用 不 
同 初始 化 方法 及 不 同 成 分 数 下 GMM 识别 的 正确 
率 。 由 图 可 知 , 用 模糊 C 均值 聚 类 初始 化 及 成 分 数 
为 2 时 的 GMM 取得 的 识别 效果 最 佳 ， 其 识别 正确 
率 高 达 98. 95% 。 具 有 较 少 成 分 的 GMM 总 体 上 分 
类 正确 率 高 于 较 多 成 分 的 CMM, 表明 昆虫 声音 相 
对 人 类 语音 而 言 相对 单调 。 图 5 也 表明 使 用 模糊 C 
均值 聚 类 初始 化 方法 总 体 效 果 要 优 于 k- 均 值 聚 类 
方法 。 
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图 2 不 同 初 始 化 方法 及 不 同 成 分 数 下 
GMM 昆虫 声音 识别 精度 
Fig. 2 The recognition accuracies of insect sounds with GMMs 


under different components and different initialization methods 


de 2 给 出 了 使 用 模糊 C. 均值 聚 类 初始 化 及 成 
分 数 为 2 时 的 GMM 识别 各 种 不 同 昆虫 声音 时 的 最 
终结 果 。 除 了 仓储 害虫 的 运动 和 取 食 声 的 识别 率 相 
对 低 一 点 (95. 65% ) ， 其 他 类 昆虫 的 总 识别 正确 率 
都 高 于 98% 。 


5 结论 


本 研究 使 用 类 似 于 说 话 人 识别 方法 的 信号 参数 
化 方法 和 先进 的 模式 识别 技术 实现 了 对 昆虫 声音 的 
目 动 鉴别 。 提 出 的 目 动 鉴定 方法 用 MFCC 作为 声音 
特征 、GMM 作为 分 类 天 ,该 方法 在 识别 58 类 昆虫 
声音 时 取得 的 平均 识别 率 为 98.95% ,鉴别 一 个 1s 
左右 的 声音 样本 所 需要 的 时 间 为 300 ms 左右 ， 从 
识别 正确 率 和 识别 时 间 上 都 表现 出 了 良好 的 性 能 。 
然而 , 要 将 该 方法 付 诸 应 用 还 有 很 多 工作 要 做 , 在 
现实 世界 中 , 昆虫 都 是 生活 在 带 有 稍 景 噪声 的 目 然 
环境 中 , 这 种 背景 噪声 的 存在 将 会 影响 识别 算法 的 
性 能 , 这 种 背景 噪声 可 以 表现 为 人 类 活动 产生 的 声 
音 如 飞机 、 汽 车 、 机 带 等 声音 , 各 种 自然 现象 市 来 的 
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表 2 不 同类 别 昆虫 声音 的 识别 精度 比较 
Table2 A comparison on recognition accuracy for 


different types of insect sounds 


识别 精度 总 测试 样本 数 ( 个 ) 


Recognition Overall number of 


昆虫 声音 类 别 


Catalogues of insect sounds 


accuracy testing samples 


仓储 害虫 运动 和 取 食 声 (7 28) 
Movement and feeding sounds of stored 0.9565 23 
product insects (7 classes) 
土壤 无 消 椎 动物 运动 和 取 食 声 (15 类 ) 
Movement and feeding sounds of soil 


1. 0000 48 


invertebrates (15 classes) 


土壤 昆虫 防御 性 摩擦 声 (2 28) 
Defensive stridulation of soil 


1. 0000 4 


insects (2 classes) 


树木 昆虫 运动 和 取 食 声 (13 28) 
Movement and feeding sounds of insects 


1. 0000 64 


in wood (13 classes) 


植物 昆虫 运动 和 取 食 声 (1 类 ) 
Movement and feeding sounds of 


1. 0000 2 


insects in plants (1 class) 





EL n His spi (12 X) 


Vibrating sounds of wings and abdomen 


0. 9804 53 


of insects ( 12 classes) 


声音 如 风雨 雷电 等 , 也 可 能 是 昆虫 同类 活动 产生 的 
声音 , 在 这 种 目 然 环境 中 使 用 本 文 算 法 之 前 首先 要 
能 去 除 这 些 背 景 噪声 。 另 外 ,同类 昆虫 在 不 同 状态 
下 发 出 的 声音 也 会 有 所 区 别 , 这 些 不 同 状 态 包括 昆 
虫 的 肉 雄 、 龄 期 、 求 偶 、 竞 争 、 报 警 等 , 那么 昆虫 目 
动 识别 系统 也 应 能 够 处 理 这 些 不 同 状态 。 本 文中 使 
用 的 声音 文件 都 是 从 录音 信号 中 截取 了 没有 噪音 尼 
声音 片段 , 在 今后 的 研究 工作 中 , 我 们 将 在 进行 识 
别 之 前 , 尝试 从 混 有 噪声 背景 的 声 首 信号 中 分 离 并 
检测 昆虫 声音 。 
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